译 Numpy Vs Pandas 表现比较

原文链接:http://gouthamanbalaraman.com/blog/numpy-vs-pandas-comparison.html

  1. Numpy比起Pandas消耗更少的内存
  2. 对于5w行或更少的数据,Numpy的表现普遍要好。
  3. 对于50w行或更多的数据,pandas的表现普遍要好。
  4. 对于5w到50w行的数据,就要取决于使用哪种操作。

对于15MM行的数据,pandas要使用内存1506m,Numpy要使用内存686m,pandas的内存要求是Numpy的两倍多。

对列进行操作

聚合操作mean,Numpy与pandas速度的比较。分界点在于10w行。

对于向量化操作符log,10w行以下Numpy更快,对于10w行以上两者差不多,但是pandas占用的内存要更大。

对于去重函数,pandas使用unique,numpy使用species。

对于有过滤条件的操作

对于列的向量化操作

留下一个疑问

pandas对于大量行的数据做了哪些优化,为什么性能得到了提升?